就是要实用！t 检验的七十二变 | 协和八 | 自由微信

查看原文

其他

就是要实用！t 检验的七十二变 | 协和八

Original 2016-03-10 张之昊 协和八

小编按：上一期为大家讲了 t 检验的来龙去脉，今天的内容，我们继续沿着这个话题说，为大家介绍 t 检验这一大家子的成员！

回复「统计学」可查看「说人话的统计学」系列合辑

在上一集《想要玩转 t 检验？你得从这一篇看起》里，我们通过蓝精灵吃包子的例子讲述了 t 检验的基本原理，以及它和中心极限定理、正态分布的关系。我们还顺带回顾了一下 p 值是怎么来的，而且讨论了在 t 检验中计算 p 值的原理。

这一集，我们来从实用的角度，来说一说 t 检验能干些什么事儿，不能干些什么事儿。

单样本 t 检验

让我们先来回想一下，上一集我们是怎么讲到 t 检验的。

我们的主角蓝精灵疑心食堂卖包子的格格巫偷工减料，包子的重量达不到食堂规定的标准（50克）。可是呢，正如格格巫所说，毕竟是手工做的包子，总归有大有小，单拿出一个包子发现份量轻了，也许只是碰巧拿了个小的。更合理的做法便是，随机抽取一定数量的包子作为样本，计算出这若干包子重量的平均值，然后检验这个平均值与食堂标准之间差异的显著性。

为了这个目的，我们可以根据样本算出统计量：

，

其中是样本平均值，是标准值，S 是样本标准差，N 是样本量。

在总体服从正态分布的前提下，统计量 t 服从一个类似于正态分布的概率分布——t 分布。对于任意的 t 值，我们可以根据 t 分布的性质（我们在上一集的末尾提到，它其实还与样本量 N 有关）算出对应的「与样本相同或更极端」的概率，这就是我们所说的 p 值了。

这个例子所使用的 t 检验，是将样本的平均值与某个特定的标准值相比较，称为「单样本 t 检验」（one sample t test）， 是 t 检验家族里我们介绍的第一个成员。

在实际应用中，这个「特定的标准值」往往有两个来源。

第一个来源便是我们上面例子的情形，即某个人为规定的、需要达到的标准。这常常出现在工商业中的质量控制环节，恰恰也是 t 检验的发明者戈塞特的初衷。

第二个来源则是由大样本所决定的某些参考值或「正常值」。比如说，人体的许多生理生化指标和人口学特征都有已知的参考值，这些都是通过常年积累的大量数据确定下来的。如果我们想知道一个特定特殊人群（比如某个地区的居民、某个职业的从业者、某种疾病的患者）在某个特定指标上是否与参考值不同，也可以用单样本 t 检验。

对于后面这种用法，严格来说稍微有一点问题，因为对于总体来说，该指标并不是必定取到参考值，而是会围绕参考值有一定的波动范围。因此，直接对总体均值进行单样本 t 检验会有些过分苛刻，从而使得差别的显著性略有夸大。

一段题外话：单侧检验与双侧检验

这里我们顺便再重温一下单侧检验和双侧检验的区别。

在蓝精灵吃包子的例子里，由于蓝精灵根本不认为格格巫会做出平均质量大于食堂标准的包子（试求格格巫过往在蓝精灵心目中留下的阴影面积），因此他们只关心格格巫的包子是否小于食堂标准。在这种情况下，他们的原假设和备择假设是这样的——

原假设：格格巫的包子重量大于等于食堂标准。

备择假设：格格巫的包子重量小于食堂标准。

因为备择假设中的差别是单方向的（只有「小于」），我们把这种情况称为「单侧检验」。

我们以前曾经说过，之所以把要检验的问题放在备择假设里，而把它的对立面作为原假设，是出于「疑罪从无」的原则，仅当数据强烈反对原假设（也就是 p 值很小）时，才推翻原假设。

这时候 p 值怎么算呢？

p 值的定义是在原假设成立的前提下观察到与数据相同或更极端的结果的概率，由于备择假设是单侧的，所以比数据更极端的结果也就是比实际数据更小的样本均值。在统计量里，当更小时，t 也更小，所以 p 值就是 t 分布下由数据所得的 t 值左边的曲线下的面积了。

那么什么是双侧检验呢？

在同样的例子里，如果蓝精灵对格格巫并没有什么坏印象，只是想知道他卖的包子份量和食堂规定的标准有没有差别，而不在乎这个差别是小了还是大了。此时，他们的原假设和备择假设就变成了——

原假设：格格巫的包子重量等于食堂标准。

备择假设：格格巫的包子重量不等于食堂标准。

这就是「双侧检验」，它与单侧检验的区别就在于「比数据更极端的结果」包含的范围更广。在双侧检验的情况下，更极端的结果不仅仅是更小的样本均值，而是与标准值之间更大的差别（无论这个差别是比标准值小还是大）。

由于 t 分布是对称的，因此对于同样的样本而言，双侧检验对应的 p 值将会是单侧检验的两倍。

我们在第四集《提高统计功效，让评审心服口服！》中讲过，使用单侧还是双侧检验，这个决定必须在看到数据之前做出，绝不能分析完数据以后回过头来改用单侧。如果在阅读文献时遇到使用单侧检验的情形，一定别忘了问问自己，作者是否有充分的理由不考虑另一个方向的效应，抑或只是人为地提高显著性。

读过「说人话的统计学」的你，可不该被这样的小把戏骗到啦！

成对样本的 t 检验

为了说明 t 检验的另外一种使用方式，让我们来开一开脑洞。

假设格格巫卖的包子是蓝精灵们唯一的食物来源，而且每天蓝精灵食用的包子个数是恒定不变的（喂喂喂，蓝精灵怎么听起来这么可怜）。为了控诉格格巫这段时间以来偷工减料给他们带来的身心摧残，蓝精灵决定拿出新的证据：最近两个月以来他们的平均体重减轻了。

他们需要怎样的数据呢？

很简单，随机抽取若干个蓝精灵，获得他们两个月以前和现在的体重测量数据，然后比较两个平均值的差别就行了。

很显然，之前介绍的单样本 t 检验就不再适用了，因为我们是要比较两个平均值的差别，而不是一个平均值和已知标准值的差别。这时，我们要使用的统计检验被称作「成对样本的t检验」（paired samples t test）。

但是注意，这里两个样本中的每个数据点都是一一对应的：对于我们抽取的那几个蓝精灵，都为两个月前体重的样本和当前体重的样本各贡献了一个数据点。

既然如此，我们可以把每个蓝精灵当前的体重减去两个月前的体重，于是两个样本就变成了一个体重变化量的样本。既然变成了一个样本，我们是不是可以用单样本t检验呢？

回到蓝精灵试图验证的问题：他们的平均体重是否减轻了。因此，此时的标准值应该对应没有体重变化的情况，也就是 0。也就是说，成对样本的 t 检验实际上就是对前后变化量作标准值为 0 的单样本t检验。

在许多统计学软件中，单样本 t 检验和成对样本 t 检验会被分为两个独立的选项。感兴趣的读者不妨自己找两列数据验证一下，先对两个成对样本进行 t 检验，再计算出变化量进行单样本t检验，得到的结果将是完全一样的。

成对样本的 t 检验最常见于同一组实验对象两个时间点（比如说干预前后）之间的比较。

除此以外，还有一种情形，就是两组实验对象虽然是不同的个体，但是存在其它的一些关联，使得两组中的个体能够一一对应起来。例如，我们想了解人群中某稀有致病突变携带者的一项血液学指标和健康人有何差别。我们可以在测量了我们所能找到的该突变携带者的该项指标以后，在健康人群中寻找在种族、年龄、性别、病史等等其它因素与每个携带者都尽量相似的受试者。这样，我们仍然有了两个「成对」的样本，因此也可以使用成对样本的t检验。

独立样本的 t 检验

为了对格格巫进一步宣战，蓝精灵们再一次碰头，想出了一个新点子。他们决定走访两条街以外黄精灵的食堂，买来一堆包子称称重量，看看是不是比格格巫的包子更大一些。这时候他们又该用什么检验呢？

很显然，此时两个样本很难有什么直接的一一对应关系了（甚至样本量都可能不一样），成对样本的 t 检验在这里并不适用。

这时，我们需要认识t检验家族的第三名成员——「独立样本的 t 检验」（independentsamples t test）。顾名思义，它用于比较来自两个独立的样本的均值。

回想一下，在单样本 t 检验中我们指出，这个检验之所以被为 t 检验，是因为我们通过样本的数据构建出了一个服从 t 分布的统计量。

而对于独立样本的 t 检验来说，我们仍然是在构造统计量 t，但由于我们比较的是两个均值，它的分子就变成了（下标 1 和 2 分别表示两个样本）。

那么分母呢？

在单样本t检验里，我们以样本均值的标准差作为总体均值标准差的一个估计，来衡量均值与参考值的差别到底有多大。在独立样本的 t 检验里，我们同样在做类似的事情，但因为涉及到两个样本，具体说起来会有些啰嗦，我们就不深入展开了。

但是，有一个技术性问题需要注意。

由于我们是在比较两个样本，而这两个样本可能来源于两个不同的分布，因此在确定 t 统计量的分母时，我们需要考虑两个样本所来自的分布是否有相同的发散程度（即方差）。因此，在我们使用独立样本的 t 检验之前，需要先进行另外一个检验，查看两个样本各自来自的分布方差是否相等，进而对 t 统计量以及有效的样本量（称为「自由度」）进行不同的处理或修正。

所以，t 检验家族的这位成员实际上是对双胞胎，一是方差相等的独立样本的 t 检验，二是方差不相等的独立样本的 t 检验。

对于两个样本的方差是否相等，一个常用的检验是Levene 氏检验（Levene’s test）。这个检验的原假设是两个分布方差相等。与所有其它检验一样，它会给我们一个 p 值。当 p 值大于 0.05 时，我们就不能拒绝原假设，即认为两分布方差相等；反之则认为两分布方差不相等。

在不少统计学软件中，Levene 氏检验已经默认称为独立样本 t 检验的一个步骤。例如在 SPSS 里，当我们使用独立样本 t 检验时，它会自动给出 Levene 氏检验的结果，并同时输出方差相等和不相等的结果，我们只需根据 Levene 氏检验读取合适的部分即可。

t 检验不能做什么？

认识了 t 检验的一家子，我们知道，它们的作用是对样本的均值进行统计推断。但是，与了解它们能做什么同样重要的是，了解它们不能做什么。

第一，t 检验不能用于非连续变量的比较。

我们在《数据到手了，第一件事先干啥？》里说过，数据可以分为离散型变量和连续型变量两类。对于离散型变量（如性别、种族、籍贯）等，本身就并非数值，自然没有均值可言。

然而，很多时候，我们在数据文件中会用数字给它们编码（比如 1 和 2 分别表示女性和男性），这时如果我们在统计学软件中执行 t 检验，仍然可以算出结果（因为有了具体数值就可以套进 t 统计量的公式，进而得到 p 值），但这样的结果是没有意义的。对于离散型变量的组间比较，我们以后将会具体介绍。

第二，t 检验不能用于超过两组变量之间均值的比较。

我们知道，t 检验可以用在单个或两个样本的均值上，那如果不止两个样本呢？

答案是否定的。

为什么不能两两比较然后得出某种统一的结论呢？我们这里先卖个关子，几集以后我们讲到方差分析（analysisof variance，ANOVA）时再来详细讨论。

第三，即便是连续型变量，如果不服从正态分布，也不能用 t 检验。

这是许多统计学使用者容易犯的一个错误。之所以对数据的正态性有要求，是因为我们此前的所有结论都是由「数据服从正态分布」这个假设导出的。如果数据不服从正态分布，那么 t 统计量也就不再服从 t 分布，我们（或统计学软件）根据 t 分布给出的 p 值也就不再准确，我们以此做出的推断也就不可靠了。

既然如此，我们应该如何判断数据是否服从正态分布呢？欲知后事如何，请听下回分解。

回复「统计学」可查看「说人话的统计学」系列合辑，

或点击下方标题可阅读本系列全部文章

你真的懂p值吗？

做统计，多少数据才算够？（上）

做统计，多少数据才算够？（下）